This study proposed a novel robotic gripper that can achieve grasping and infinite wrist twisting motions using a single actuator. The gripper is equipped with a differential gear mechanism that allows switching between the grasping and twisting motions according to the magnitude of the tip force applied to the finger. The grasping motion is activated when the tip force is below a set value, and the wrist twisting motion is activated when the tip force exceeds this value. "Twist grasping," a special grasping mode that allows the wrapping of a flexible thin object around the fingers of the gripper, can be achieved by the twisting motion. Twist grasping is effective for handling objects with flexible thin parts, such as laminated packaging pouches, that are difficult to grasp using conventional antipodal grasping. In this study, the gripper design is presented, and twist grasping is analyzed. The gripper performance is experimentally validated.
translated by 谷歌翻译
This letter proposes a novel single-fingered reconfigurable robotic gripper for grasping objects in narrow working spaces. The finger of the developed gripper realizes two configurations, namely, the insertion and grasping modes, using only a single motor. In the insertion mode, the finger assumes a thin shape such that it can insert its tip into a narrow space. The grasping mode of the finger is activated through a folding mechanism. Mode switching can be achieved in two ways: switching the mode actively by a motor, or combining passive rotation of the fingertip through contact with the support surface and active motorized construction of the claw. The latter approach is effective when it is unclear how much finger insertion is required for a specific task. The structure provides a simple control scheme. The performance of the proposed robotic gripper design and control methodology was experimentally evaluated. The minimum width of the insertion space required to grasp an object is 4 mm (1 mm, when using a strategy).
translated by 谷歌翻译
Hopfield networks and Boltzmann machines (BMs) are fundamental energy-based neural network models. Recent studies on modern Hopfield networks have broaden the class of energy functions and led to a unified perspective on general Hopfield networks including an attention module. In this letter, we consider the BM counterparts of modern Hopfield networks using the associated energy functions, and study their salient properties from a trainability perspective. In particular, the energy function corresponding to the attention module naturally introduces a novel BM, which we refer to as attentional BM (AttnBM). We verify that AttnBM has a tractable likelihood function and gradient for a special case and is easy to train. Moreover, we reveal the hidden connections between AttnBM and some single-layer models, namely the Gaussian--Bernoulli restricted BM and denoising autoencoder with softmax units. We also investigate BMs introduced by other energy functions, and in particular, observe that the energy function of dense associative memory models gives BMs belonging to Exponential Family Harmoniums.
translated by 谷歌翻译
本文从未分割的烹饪视频中解决了食谱生成,该任务要求代理(1)提取完成盘子时提取关键事件,以及(2)为提取的事件生成句子。我们的任务类似于密集的视频字幕(DVC),该字幕旨在彻底检测事件并为其生成句子。但是,与DVC不同,在食谱生成中,食谱故事意识至关重要,模型应以正确的顺序输出适当数量的关键事件。我们分析了DVC模型的输出,并观察到,尽管(1)几个事件可作为食谱故事采用,但(2)此类事件的生成句子并未基于视觉内容。基于此,我们假设我们可以通过从DVC模型的输出事件中选择Oracle事件并为其重新生成句子来获得正确的配方。为了实现这一目标,我们提出了一种基于变压器的新型训练事件选择器和句子生成器的联合方法,用于从DVC模型的输出中选择Oracle事件并分别为事件生成接地句子。此外,我们通过包括成分来生成更准确的配方来扩展模型。实验结果表明,所提出的方法优于最先进的DVC模型。我们还确认,通过以故事感知方式对食谱进行建模,提出的模型以正确的顺序输出适当数量的事件。
translated by 谷歌翻译
我们提出了一个名为“ Visual配方流”的新的多模式数据集,使我们能够学习每个烹饪动作的结果。数据集由对象状态变化和配方文本的工作流程组成。状态变化表示为图像对,而工作流则表示为食谱流图(R-FG)。图像对接地在R-FG中,该R-FG提供了交叉模式关系。使用我们的数据集,可以尝试从多模式常识推理和程序文本生成来尝试一系列应用程序。
translated by 谷歌翻译
我们提出了一个端到端的移情对话言语综合(DSS)模型,该模型既考虑对话历史的语言和韵律背景。同理心是人类积极尝试进入对话中的对话者,而同理心DSS是在口语对话系统中实施此行为的技术。我们的模型以语言和韵律特征的历史为条件,以预测适当的对话环境。因此,可以将其视为传统基于语言 - 基于语言的对话历史建模的扩展。为了有效地培训善解人意的DSS模型,我们研究1)通过大型语音语料库预审预测的一个自我监督的学习模型,2)一种风格引导的培训,使用韵律嵌入对话上下文嵌入的当前话语,3)对结合文本和语音方式的跨模式的关注,以及4)句子的嵌入,以实现细粒度的韵律建模,而不是通过话语建模。评估结果表明,1)仅考虑对话历史的韵律环境并不能提高善解人意的DSS中的语音质量和2)引入样式引导的培训和句子嵌入模型的言语质量比传统方法更高。
translated by 谷歌翻译
我们提出了研究,这是一种新的演讲语料库,用于开发一个可以以友好方式讲话的语音代理。人类自然会控制他们的言语韵律以相互同情。通过将这种“同情对话”行为纳入口语对话系统,我们可以开发一个可以自然响应用户的语音代理。我们设计了研究语料库,以包括一位演讲者,他明确地对对话者的情绪表示同情。我们描述了构建善解人意的对话语音语料库的方法论,并报告研究语料库的分析结果。我们进行了文本到语音实验,以最初研究如何开发更多的自然语音代理,以调整其口语风格,以对应对话者的情绪。结果表明,对话者的情绪标签和对话上下文嵌入的使用可以与使用代理商的情感标签相同的自然性产生语音。我们的研究项目页面是http://sython.org/corpus/studies。
translated by 谷歌翻译
我们介绍了观看鸟类,从观察者(例如一个人或车辆)捕获的自我为中心的视频中恢复人群地面运动的问题也在人群中移动。恢复的地面运动将为情境理解提供合理的基础,并在计算机视觉和机器人中使用下游应用。在本文中,我们制定了视图鸟化作为几何轨迹重建问题,并从贝叶斯视角推导出级联优化方法。该方法首先估计观察者的运动,然后为每个帧定位周围的行人,同时考虑到它们之间的本地相互作用。我们通过利用人群中的人们的综合和实际轨迹来介绍三个数据集,并评估我们方法的有效性。结果表明了我们方法的准确性,并设定了地面,以进一步研究认为鸟化是一个重要但具有挑战性的视觉理解问题。
translated by 谷歌翻译
安全保证是自动驾驶(AD)系统发展和社会接受(AD)系统的核心问题。感知是广告的关键方面,严重依赖机器学习(ML)。尽管基于ML的组件的安全性有已知的挑战,但最近已经提出针对解决这些组件的单位安全案例的建议。不幸的是,AD安全案例在系统级别上表示安全要求,这些努力缺少将安全性要求与单位级别的组件性能要求整合在一起所需的关键链接参数。在本文中,我们提出了感知的集成安全案例(ISCAP),这是针对专门针对感知组件量身定制的这种链接安全参数的通用模板。该模板采用演绎且形式上的方法来定义级别之间强大的可追溯性。我们通过详细的案例研究证明了ISCAP的适用性,并讨论了其作为支持感知成分增量发展的工具的使用。
translated by 谷歌翻译